Loading...
机构名称:
¥ 1.0

被称为低能消耗网络,尖峰的神经网络(SNN)在过去几十年中引起了很多关注。尽管SNN与人工神经网络(ANN)的竞争增加了视力任务,但尽管它们具有内在的时间动力学,但它们很少用于长序列任务。在这项工作中,我们通过利用状态空间模型(SSM)的序列学习能力来开发长序列学习的尖峰状态空间模型(SPIKINGSM)。受树突状神经元结构的启发,我们将神经元动力学与原始SSM块整合在一起,同时实现了稀疏的突触计算。此外,为了解决事件驱动的神经动力学的冲突,我们提出了一个轻巧的替代动态网络,该网络可以准确地预测余后膜的潜力,并且可以兼容以学习能力的阈值,从而在训练速度上与传统的术语相比,在训练速度中具有加速速度。在远程竞技场基准任务中,SpikingsSM在最先进的SSMS上取得了胜利的性能,同时平均重新占据了90%的网络稀疏性。在语言建模上,我们的网络显着超过了Wikitext-103数据集上现有的大型语言模型(SpikingLlms),其中只有三分之一的模型大小,证明其作为低计算成本LLM的骨干架构的潜力。

arxiv:2408.14909v2 [CS.CL] 2024年12月24日

arxiv:2408.14909v2 [CS.CL] 2024年12月24日PDF文件第1页

arxiv:2408.14909v2 [CS.CL] 2024年12月24日PDF文件第2页

arxiv:2408.14909v2 [CS.CL] 2024年12月24日PDF文件第3页

arxiv:2408.14909v2 [CS.CL] 2024年12月24日PDF文件第4页

arxiv:2408.14909v2 [CS.CL] 2024年12月24日PDF文件第5页

相关文件推荐